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In ciner Nctzauswahlcinheit crfolgl (13) die Auswahl zwischen dem Siandardnelzwerk 



(57) Abstract: Disclosed is a method (or controlling the 
communication of individual computers in a multicomputer 
system, wherein the individual computers are connected 
to one another via a standard network (LAN) (16) and a 
high-performance network (SAN) (17). Each individual 
computer is provided with a protocol unit and a library 
in the operating system core (10). Said unit is connected 
to the standard network (LAN) and serves for processing 
communication protocols. Said library is arranged upstream 
in relation to the operating system core. Applications are 
mounted on said library and on a communication interface. 
The standard network (LAN) or the high-performance network 
(SAN) is selected (13) in a network selection unit. According 
to the invention, the network is selected (13) behind the 
communication intersection of the library and before or directly 
after the entrance into the operating system core. The library 
can be connected to the high-performance network (SAN) by 
means of a communications path (19) when the network is 
selected before the entrance into the operating system core. 
Said path evades the operating system core. 

(57) Zusammenfassung: Beschrieben wird ein Verfahrcn 
zur Steuerung der Kommunikation von Einzelrechnem in 
einem Rechnerverbund. in dem die Einzelrechner flber ein 
Siandardnelzwerk LAN (16) und ein Hoctileistungsnetzwerk 
SAN (17) miteinander verbunden sind. Jeder Einzelrechner 
weist in einem Betriebssystemkcm (10) cine mil dem 
Siandardnelzwerk LAN verbundene Protokolleinheil zur 
Abarbeilung von Kommunikationsprolokollen und eine dem 
Betriebssystemkcm vorgcscholtete Bibliothek auf, auf der an 
eincr Kommunikationsschnitisielle Applikationcn aufsetzen. 
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Verfahren zur Steuerung der Kommunikation von Einzelrechnern in einem Rechnerverbiuid 

Die Erfindung betrifft ein Verfahren zur Steuerung der Kommunikation von Einzelrechnern in 
einem Rechnerverbund, mit dem es ermoglicht werden soli, den Verband aus Einzelrechnern 
als effizienten Parallelrechner zu benutzen. 

Einzelrechner oder sogenannte Arbeitsplatzrechner, bei denen es sich um einen 
handelsiiblichen Personalcomputer (PC) oder um eine Workstation handeln kann, sind in den 
letzten Jahren hinsichtlich ihrer Rechengeschwindigkeit und somit ihrer Rechenleistung stark 
verbessert worden, so dafl sich mit ihnen eine Vielzahl von Programmablaufen sowohl im 
privaten als auch im gewerblichen Bereich ausfuhren laBt. Insbesondere im gewerblichen 
Bereich beispielsweise bei der Organisation von mittleren oder grofieren Betrieben, bei der 
Simulation von Anwendungen und Fertigungsablaufen aber auch im Bereich der Forschung 
und Wissenschaft sind die Rechenleistungen der zur Zeit leistungsstarksten PCs jedoch nicht 
ausreichend, um die anstehenden Datenmengen in einer betriebswirtschaftlich akzeptablen 
Zeit zu verarbeiten. Fiir derartig rechenintensive Aufgaben muB deshalb iiblicherweise auf 
sogenannte GroBrechenanlagen zuriickgegriffen werden, die jedoch sehr kostenintensiv sind. 

Seit langer Zeit ist versucht worden, durch Aufbau eines Rechnerverbundes aus mehreren 
parallel geschalteten Einzelrechnern, die jeweils von einem handelsiiblichen PC gebildet sind, 
eine kostengiinstigere Alternative zu den GroBrechenanlagen zu schaffen. Die Einzelrechner 
weisen dabei iiblicherweise Standardprozessoren auf, die gegeniiber Spezialprozessoren das 
bessere Preis-Leistungs-Verhaltnis und kiirzere Weiterentwicklungszeiten besitzen. Der 
Aufbau bzw. die Architektur eines derarligen Rechnerverbundes, der auch als Parallelrechner 
bezeichnet wird, beschrankt sich somit auf die Erweiterung der Uni-Prozessor-Architektur um 
eine Kommunikationsschnittstelle, die die Kommunikation zwischen den einzelnen 
Prozessoren realisiert, sowie die Replikation der erweiterten Uni - Prozessor- Architektur. 

Zum Aufbau eines bekannten Rechner-Verbundes werden eine Anzahl von 
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Arbeitsplatzrechnern, sogenannte (Rechen-) Knoten, ein spezielles Hochleistungsnetzwerk 
SAN (System Area Network), das zusatzlich zu einem Standardnetzwerk LAN (Local Area 
Network) betrieben wird, sowie ein Betriebssystem fur die Rechenknoten verwendet. Als 
Arbeitsplatzrechner bzw. Rechenknoten in einem bekannten Rechner-Verbund kommen 
derzeit Systeme mit handelsublichen Prozessoren zum Einsatz. Neben Ein - Prozessor - 
Systemen (Uni Prozessoren) konnen auch kleine SMP (Symmetrischer Multi- Prozessor)- 
Systeme (Dualprozessoren) als Knotenrechner verwendet werden. Der Ausbau der 
Knotenrechner (Hauptspeicher, Festplatten, Prozessor etc.) hangt weitgehend von den 
Anforderungen des Benutzers ab. 

Die herkommliche Vorgehensweise zur Integration eines Netzwerks innerhalb des 
Betriebssystems eines Einzelrechners ist in Figur I dargestellt. Hauptbestandteil in einem 
Betriebssystemkern 10 ist ein erster netzwerkspezifischer Geratetreiber 11 fur das 
Standardnetzwerk LAN und ein zweiter netzwerkspezifischer Geratetreiber 12 fur das 
Hochleistungsnetzwerk SAN. Die beiden parallel angeordneten Geratetreiber 11 und 12 
werden in Abhangigkeit von einer vorgeschalteten Netzauswahleinheit 13 angesprochen und 
passen jeweils die netzwerkspezifische Kommunikationsschnittstelle an die von den 
Netzwerkprotokollen erwartete Schnittstelle an. Dem Benutzer bleibt die spezifische 
Ansteuerung des Netzwerks sowie dessen Integration weitgehend verborgen. Er verwendet 
weiterhin die von einer Systembibliothek 14 bereitgestellten Kommunikationsoperationen und 
erst nach der Abarbeitung der Kommunikationsprotokolle in einer Protokolleinheit 15 
innerhalb des Betriebssystemkerns 10 findet der eigentliche Obergang auf die verschiedenen 
Kommunikationsnetzwerke statt. Der herkommliche Kommunikationspfad erfolgt somit 
ausgehend von einer Applikation A oder B gegebenenfalls unter Verwendung einer 
Programmierumgebung 26 fiber die Kommunikationsschnittstelle 23 der Systembibliothek 14, 
den Eintritt ins Betriebssystem 10, die Abarbeitung der Kommunikationsprotokolle in der 
Protokolleinheit 15, die Netzwerkauswahl in der Netzauswahleinheit 13, die Ansteuerung 
fiber den jeweiligen Geratetreiber 11 bzw. 12 bis zum Zugriff auf die zu dem gewahlten 
Netzwerk zugehorige Hardware in Form einer Netzwerkkarte 16 bzw. 17. 

Bei entsprechendem Gleichgewicht zwischen Kommunikations- und Rechenleistung kommt 
GroBrechenanlagen eine wesentliche Bedeutung zu, wie deren steigende Verbreitung zeigt. 
Der Erfolg von Rechnerbiindeln - als kostengunstige Alternative zu GroBrechenanlagen - 
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dagegen ist bisher eher moderat und auf spezielle Anwendungsklassen mit niedrigem 
Kommunikationsaufwand beschrankt. Eine Ursache hierfur liegt in der geringen bis mSBigen 
Datentransferleistung verfiigbarer Kommunikationsnetzwerke aus dem LAN Bereich, die 
jedoch mit dem Aufkommen neuartiger Hochleistungsnetze aus dem SAN Bereich beseitigt 
wurde. Beim Einsatz dieser Hochleistungsnetzwerke stellt sich jedoch sehr schnell heraus, 
daB der herkommliche, im Betriebssystem verankerte Kommunikationspfad - wie oben 
beschrieben - nicht in der Lage ist, das Leistungspotential der Hochleistungsnetze auch nur 
anna'hemd auszuschopfen. Die Ursache dafur liegt sowohl in der Architektur des 
Kommunikationspfades selbst als auch in der Verwendung standardisierter 
Kommunikationsprotokolle (z.B. TCP/IP), die samtlich nicht fiir die BedUrfhisse der 
Parallelverarbeitung, sondern fiir einen Betrieb in Weitverkehrsnetzen ausgelegt wurden. 

Der eingeschrankte Funktionsumfang der im Weitverkehrsbereich eingesetzten Netzwerke 
zieht Mechanismen zur Wegfindung, FluBkontrolle, Fragmentierung bzw. Defragmentierung, 
Reihenfolgeerhaltung, Zwischenspeicherung, Fehlererkennung und Fehlerbehandlung nach 
sich, die alle im Funktionsumfang von standardisierten Kommunikationsprotokollen (z.B. 
TCP/IP) enthalten sind. Dariiber hinaus stellen standardisierte Kommunikationsprotokolle oft 
Funktionalitaten bereit, die eher hinderlich beim Einsatz in parallelen Systemen sind. 
Darunter fallen insbesondere feste PaketgroBen, aufwendige Priifsummenberechnungen, 
mehrere Protokollebenen und eine Vielzahl an Informationen in den Paketkopfen. Die 
unumgangliche Bereitstellung dieser Information kostet Zeit, die aus Sicht eines 
Programmentwicklers zur unerwiinschten Verzogerungszeit zahlt. Erschwerend kommt hinzu, 
dafl der in Fig. 1 dargestellte Kommunikationspfad nicht in der Lage ist, sich der 
Funktionalitat der unter- liegenden Netzwerke anzupassen und immer von einem 
bereitgestellten Minimalumfang ausgeht. Dies filhrt gerade beim Einsatz spezieller 
Hochleistungsnetzwerke zur Implementierung bereits vorhandener Funktionalitat innerhalb 
der Protokollsoftware, die deren Abarbeitung erheblich verzogert, und die darauf aufsetzende 
Applikation maBgeblich behindert. 

Zur Losung dieser Problematik ist es bekannt, Verfahren zur Latenzzeitreduktion einzusetzen, 
die darauf abzielen, Ineffizienzen auf dem Kommunikationspfad soweit wie moglich zu 
eliminieren. Die Ansatzpunkte liegen dabei nicht nur bei den eingesetzten 
Kommunikationsnetzwerken, sondern vor allem bei den eingesetzten Netzwerkprotokollen, 
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der Interaction mit dem Betriebssystem sowie der Definition und der Machtigkeit der auf 
Anwendungsebene zur Verfiigung gestellten Kommunikationsschnittstelle. Die Reduktion der 
Kommunikationslatenzzeiten basiert auf der gezielten Verlagerung von Aufgaben aus hdheren 
Ebenen in tieferliegende Ebenen des Kommunikationspfades bzw. der 
Kommunikationshardware, was zu einer Restrukturierung des Kommunikationspfades in 
seiner Gesamtheit fuhrt. 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Steuerung der Kornmunikation 
von Einzelrechnern in einen Rechnerverbund zu schaffen, bei dem die 
Kommunikationslatenzzeiten wesentlich reduziert sind und der Datendurchsatz erhoht ist. 

Diese Aufgabe wird erfindungsgemafi mit einem Verfahren gemafi Anspruch 1 gelost. Dabei 
wird von der Grundidee ausgegangen, den herkommlichen Kommunikationspfad nur fur das 
Standardnetzwerk LAN vorzusehen und parallel dazu einen zweiten Kommunikationspfad fiir 
das Hochleistungsnetzwerk SAN zu schaffen, der einen direkten Zugriff einer Applikation auf 
die SAN-Kommunikationshardware unter zumindest weitgehender TJmgehung. des 
Betriebssystems erlaubt, so daB die Kommunikationshardware aus dem AdreBraum des 
Benutzers heraus angesteuert werden kann. Dieses Vorgehen eroffnet die Mfiglichkeil, 
sowohl das Betriebssystem als auch die herkommlichen Kommunikationsprotokolle 
vollstandig aus dem effizienzkritischen Pfad der Kommunikationsoperationen zu entfemen. 
Die Applikationen auf Benutzerseite sind auf zumindest eine Bibliothek aufgesetzt, in der 
oder unmittelbar nach der eine NetzauswahJeinheit eines der beiden Netzwerke auswahlt. 
Dabei findet die Netzauswahl vor der Abarbeitung des Protokolls start, die innerhalb des 
Betriebssystems erfolgt. Durch diese Verlagerung der Auswahl des Netzwerkes, die bei einer 
herkommlichen Architektur des Kommunikationspfades erst zwischen der Abarbeitung des 
Protokolls und den Geratetreibem stattfindet, ist es moglich, die 
Kommunikationsverbindungen fruhzeitig, d.h. vor oder unmittelbar nach Eintritt in den 
Betriebssystemkem und vor allem vor Abarbeitung der Kommunikationsprotokolle auf den 
schnelleren zusatzlichen Kommunikationspfad umzuleiten. Diese Umleitung findet jedoch nur 
statt, wenn die gewiinschte Kommunikationsverbindung auch ttber das Hoch- 
leistungsnetzwerk und somit den zusatzlichen Kommunikationspfad abgewickelt werden 
kann. Falls dies nicht der Fall sein sollte, wird der herkommliche Kommunikationspfad durch 
das Betriebssystem benutzt. Es hat sich gezeigt, daB auf diese Weise eine effiziente 
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Parallelverarbeitung in einem Verbund aus gekoppelten Arbeitsplatzrechnem mit hoher 
Leistungsfahigkeit und Flexibilitat erreicht werden kann. 

Weitere Einzelheiten und Merkmale der Erllndung sind aus der folgenden Beschreibung unter 
Bezugnahme auf die Zeichnung ersichtlich. Es zeigen: 

Figur 1 eine schematische Oarstellung einer herkommlichen 

Kommunikationsarchitektur, 

Figur 2 eine schematische Darstellung einer erfindungsgemaBen 
Kommunikationsarchitektur nach 
einem ersten Ausfuhrungsbeispiel, 

Figur 3 eine schematische GegenUberstellung der Kommunikationsarchitekturen 
gemaB den Figuren 1 und 2 mit Verdeutlichung der verfahrensmaBigen 
Anderungen, 

Figur 4 eine schematische Darstellung einer erfindungsgemaBen Kommunikations- 
architektur nach einem zweiten Ausfuhrungsbeispiel, 

Figur 5 eine schematische GegenUberstellung der Kommunikationsarchitekturen 
gemaB den Figuren 1 und 4 mit Verdeutlichung der verfahrensmaBigen 
Anderungen, 

Figur 6 eine schematische Darstellung einer erfindungsgemaBen Kommunikations- 
architektur nach einem dritten Ausfuhrungsbeispiel und 

Figur 7 eine schematische GegenUberstellung der Kommunikationsarchitekturen 
gemaB den Figuren I und 6 mit Verdeutlichung der verfahrensmaBigen 
Anderungen 



Zunachst sei im folgenden auf die Basiskomponenten eines Rechnerverbundes eingegangen, 
bei dem das erfindungsgemaBe Verfahren zur Anwendung kommt. Als Einzelplatz- bzw. 
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Knotenrechner finden herkommliche PCs Verwendung, wie sie bereits oben beschrieben 
wurden. Neben dem Standardnetzzwerk LAN wird das Hochleistungsnetzwerk SAN 
betrieben, das eine moglichst hohe Ubertragungskapazitat von beispielsweise 1,28 Gbit/s, 
eine mehrdimensionale, frei wahlbare, skalierbare Netzwerktopologie sowie eine freie 
Programmierbarkeit des Netzwerkadapters aufweisen sollte. Ein derartiges 
Hochleistungsnetzwerk ist an sich bekannt. 

Als Betriebssystem der Knotenrechner innerhalb des Rechnerverbundes kommt Unix bzw. ein 
Derivat zum Einsatz. Dariiber hinaus ist eine Systemsofrware notwendig, urn aus den handels- 
iiblichen Einzelkomponenten den Rechnerverbund zu bilden. Die Systemsoftware umfaBt im 
wesentlichen folgende Komponenten: 

- ein Programm zur Steuerung des Netzwerkadapters, 

- einen Geratetreiber zur Integration des Netzwerkadapters in das Betriebssystem, 

- eine BasisbibJiotbek zur Steuerung und Abwicklung der Kommunikationsverbindungen, 

- Anwenderbibliotheken fur standardisierte ProgrammierschnittsteHen und -umgebungen, 

- ein Programm zum Aufbau, zur Verwaltung und zur Steuerung des Rechnerverbundes sowie 

- Dienstprogramme zur Konfiguration und Administration des Rechnerverbundes. 

Figur 2 zeigt die schematische Darstellung einer erfindungsgemaflen Kommunikations- 
architektur, wobei bereits im Zusammenhang mil Figur 1 erlauterte Funktionen mit den 
gleichen Bezugszeichen versehen sind. Wie Figur 2 zeigt, greifen drei beispielhaft dargestellte 
Applikationen A, B und C gegebenenfalls unter Zwischenschaltung einer Programmier- 
umgebung 25 bzw. 26 liber Kommunikationsschnittsteilen 23 bzw. 24 auf eine Basis- 
bibliothek 18 zu, in die eine Netzauswahleinheit 13 integriert ist. Die Netzauswahleinheit 13 
kann entweder die Protokolleinheit 1 5 innerhalb des Betriebssystemkerns 1 0 ansprechen, der 
der erste Geratetreiber 13 fur die Hardware bzw. Netzwerkkarte 16 des Standardnetzwerks 
LAN nachgeschaltet ist. Der Protokolleinheit 15 ist desweiteren die bekannte System- 
bibliothek 14 zugeordnet. 

Altemativ kann die Netzauswahleinheit 13 auch einen zweiten Kommunikationspfad 19 
ansprechen, der die Basisbibliothek 1 8 direkt unter Umgehung des Betriebssystemkerns 10 
mit der Hardware bzw. der Netzwerkkarte 17 des Hochleistungsnetzes SAN verbindet. Dem 
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zweiten Kommunikationspfad 19 ist ebenfalls ein Geratetreiber 12 zugeordnet, der jedoch nur 
Verwaltungsaufgaben wahmimmt und nicht mehr in die eigentliche Kommunikation 
eingebunden ist. Aufgrund der Netzauswahl in oder unmittelbar nach der Basisbibliothek 18, 
d.h. vor Eintritt in den Betriebssystemkern 10, konnen Kommunikationsverbindungen bereits 
in einem fhlhen Stadium auf den schneileren zweiten Kommunikationspfad 19 umgeleitet 
und so unter Umgehung des Betriebssystemkems 10 direkt dem Hochleistungsnetzwerk SAN 
zugeffihrt werden. Wenn eine Kommunikationsverbindung fiber den zweiten Kommunika- 
tionspfad 19 nicht moglich ist, weil beispielsweise die SAN-Umgebung temporal nicht 
verfiigbar ist oder das Ziel nur fiber die LAN-Umgebung erreichbar ist, wird auf den ersten 
Kommunikationspfad, d.h. die Betriebssystemkommunikation und das Standardnetzwerk 
LAN zuruckgegriffen. 

Das verwendete Hochleistungsnetzwerk SAN solite ffir die Anforderungen der 
Parallelverarbeitung optimiert werden. Dabei werden Funktionalitaten, die iiblicherweise auf 
Softwareebene realisiert werden, in die Verantwortlichkeit der Netzwerkhardware iibertragen. 
Dazu zahlen insbesondere 



a) die Skalierbarkeit des Netzwerkes, die einen Leistungseinbruch bei wachsender 
Anzahl angeschlossener Knotenrechner verhindert, 

b) die Wegfindung innerhalb des Netzwerkes, wodurch die Protokolle auf hoherer Ebene 
stark vereinfacht werden, 

c) die verlustfreie Dateniibertragung und die Reihenfolgeerhaltung von 
aufeinanderfolgenden Paketen, wodurch FluBkontroIlmechanismen auf hoherer Ebene 
stark vereinfacht werden, 

d) variable PaketgrGBen, die eine Bandbreitenverschwendung vermeiden, sowie 

e) minimale Kommunikationsprotokolle, die mit sehr wenig Informationen auskommen 
und den Aufwand zur Erstellung der Pakete reduzieren. 

Zur Ausbildung schlanker Kommunikationsprotokolle werden alle Protokollaufgaben, die 
direkt in die Netzwerkhardware verlagert werden konnen, dorthin verlagert. Dabei handelt es 
sich beispielsweise urn die gesicherte Dateniibertragung mittels FluBkontrolIe sowie die 
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Reihenfolgetreue von Paketstromen. Desweiteren wird die zur Verfilgung stehende 
Kontextinformation genutzt, um Kommunikationsprotokolle so schlank wie moglich zu 
gestalten. lnsbesondere die Tatsache, dafl es sich bei einem Verbund paralleler Rechner um 
ein geschlossenes Netzwerk mit bekannter Anzahl von Knoten und bekannter Topologie 
handeit, vereinfacht beispielsweise die Wegfindnngs- und Wegwahlproblematik, da alle 
moglichen Wege statisch vorberechnet werden konnen, sowie die Identifikation von Knoten, 
da alle Knoten von vornherein bekannt sind und mit einer eindeutigen Kennung versehen 
werden konnen. AuBerdem unterliegt das verwendete Protokoll keinerlei Kompatibilitats- 
beschrankung aufgrund von Kommunikationsbeziehungen mit fremden Systemen, da fremde 
Systeme innerhalb des Verbundes parallel gestalteter Rechner nicht existieren. Insgesamt 
fiihrt die konsequente Ausnutzung des vorhandenen Systemwissens dazu, dafl die sonst im 
Betriebssystemkem verankerten Protokolle fur den zweiten Kommunikationspfad 19 
vollstfindig eliminiert werden konnen. 

Die fur die Funktionsfahigkeit des Rechnerverbundes notwendige MultiprozeBfahigkeit, d.h. 
die Moglichkeit, dafi mehrere Prozesse gleichzeitig Kommunikationsverbindungen 
unterhalten konnen, wird bei der erfindungsgemaBen Systemarchitektur durch entsprechende 
Mechanismen innerhalb der Basisbibliothek erreicht. 

Aus Sicht des Benutzers ist das Vorhandensein standardisierter Kommunikations- 
schnittstellen von erheblicher Bedeutung, da diese es ihm erlauben, eine Vielzahl von 
Applikationen ohne groBeren Aufwand auf das jeweilige Zielsystem zu portieren. 
Desweiteren gewahrleisten standardisierte Kommunikationsschnittstellen, daB Applikationen 
beim Wechsel auf eine neue Rechnergeneration nicht wiederum speziell angepaBt werden 
miissen. Aus diesem Grunde wird erfindungsgemafl dem Benutzer eine der Schnittstellen des 
ersten Kommunikationspfades bzw. der Betriebssystemkommunikation syntaktisch und 
semanu'sch aquivalente Programmierschnittstelle 23 zur Verfilgung gestellt. Darauf aufbauend 
kann eine Applikation A oder B gegebenenfalls unter Verwendung einer standardisierten 
Programmierumgebung 26 die Kommunikation ilber die Basisbibliothek 18 abwickeln. 
Daruber hinaus werden speziell angepaBte Versionen von standardisierten (MPI = Message 
Passing Interface) oder weit verbreiteten Progranunierumgebungen 25 (PVM = Parallel 
Virtual Machine) angeboten, die uber eine spezielle Schnittstelle 24 mit der Basisbibliothek 
18 interagieren. Die Programmierschnittstelle 23 eignet sich vorrangig fur Applikationen aus 
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der verteilten Datenverarbeitung in lokalen Netzen und deren Portierung auf das 
erfindungsgemaBe System. Die Programmienimgebungen 25 bzw. 26 PVM und MPI stelien 
dagegen das Bindeglied zu kommerziellen Parallelrechnem und den doit laufenden 
Applikationen dar. 

In Figur 3 ist auf der linken Seite die herkommliche Kommunikationsarchitektur, wie sie 
bereits anhand der Fig. 1 beschrieben wurde, der auf der rechten Seite dargestellten 
erfindungsgemaBen Kommunikationsarchitektur, wie sie anhand der Figur 2 beschrieben 
wurde, direkt gegenubergestellt, wobei durch zwischen den beiden Darstellungen verlaufende 
Pfeile die Verlagerung von einzelnen Kommunikations- Verfahrensschritten angedeutet ist. 

Pfeil (1) in Figur 3 beschreibt die Verlagerung des Zugangs zu dem SAN-Netzwerk aus den 
unteren Schichten des Betriebssystems direkt in die BasisbibJiothek 1 8. Auf diese Weise ist 
die Kommunikationsarchitektur von samtlichen Beschrankungen befreit, die ublicherweise 
innerhalb eines Betriebssystems vorhanden sind. Dabei wird die Fahigkeit des im System 
vorhandenen Speicherverwaltungsbausteins ausgenutzt, aus physikalischen Speicherbereichen 
nach Belieben logische AdreDraume zu konstruieren. Dieses sogenannte Basisprinzip wird 
angewendet auf die Kommunikationshardware und kann als User-Level-Kommunikation 
bezeichnet werden. 

Wie in Figur 3 durch die Pfeile (2) angedeutet ist, wird die in den bisher im 
Betriebssystemkem 10 angesiedelten Protokollen erbrachte Funktionalitat, insbesondere die 
gesicherte Dateniibertragung mittels FluBkontrolle sowie die Reihenfolgetreue von Paket- 
stromen, entweder direkt in die SAN-Netzwerkhardware 17 oder in die Basisbibliothek 
verlagert, so daB die bisher im Betriebssystemkem 10 angesiedelten Protokolle fur den 
zweiten Kommunikationspfad 19 vollstandig eliminiert werden kOnnen. Wenn fur die 
Netzwerkhardware 1 7 ein programmierbarer Netzwerkadapter vorliegt, ist es moglich, die 
gewiinschte Funktionalitat ausschiieBlich vom Netzwerk erbringen zu lassen. 

ErfindungsgemaB wird die Auswahl des Netzwerks, die normalerweise im 
Betriebssystemkem zwischen der Protokollabarbeitung und dem Geratetreiber angesiedelt ist, 
aus dem Betriebssystem heraus in die Basisbibliothek 1 8 verlagert (siehe Pfeil (3)). Somil ist 
es moglich, Kommunikationsverbindungen vor Durchlaufen des Betriebssystemkems auf den 
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schnelleren zweiten Kommumkationspfad 19 umzuleilen. 

Die Abbildung der Betriebssystemfunktionalitat aus dem Betriebssystem in die 
Basisbibliothek gemSfi Pfeil (4) realisiert die Multi-Prozessfdhigkeit der Basisbibliothek. Die 
dazu notwendigen Verfahren zum Schutz kritischer Programmabschnitte und Datenbereiche 
mittels Semaphoren sind aus dem Betriebssystembau an sich bekannt. 



Auch die Programmierschnittstelle 23 einer Applikation wird von der Systembibliothek in der 
Basisbibliothek abgebildet (siehe Pfeil (5b)) und stellt dariiber hinaus aquivalente 
Programmierumgebungen 25 zur Verfugung (siehe Pfeil (5a)), die ihrerseits iiber die 
Schnittstelle 24 direkt auf die Basisbibliothek 18 zuriickgreifen. Beide MaBnahmen dienen 
dazu, Applikationen einfacher, besser und schneller auf die erfindungsgemaJte 
Kommunikationsarchitektur portieren zu konnen. 

Die bisher dargestellte Kommunikationsarchitektur bietet gegeniiber einer herkommlichen 
Kommunikationsarchitektur in Betriebssystemen erhebliche Leistungsvorteile, bringt jedoch 
aber auch eher nachteilige Nebeneffekte mit sich. Zum einen wird die Leistung durch eine 
Einschrankung beziiglich der Sicherheit der Kommunikationsschnittstelle erkauft und zum 
anderen mussen Standardapplikationen, die die Hochgeschwindigkeitskommunikation nutzen 
wollen, mit einer speziellen Systembibliothek gebunden werden. Urn diese beiden 
Schwachstellen zu beheben, wird die in Fig. 4 dargestellte Kommunikationsarchitektur 
vorgeschlagen. Gegeniiber Fig. 3 gewahrleistet die erneute Verlagerung der Netzauswahl 13 
aus der Bibliothek 18 in den Betriebssystemkem 10, jedoch vor dem eigentlichen Eintritt in 
die Protokollverarbeitung 15, sowohl die in Betriebssystemen Ubliche Sicherheit von 
Kommunikationsschnittstellen, als auch die gewunschte Transparenz der 
Kommunikationsschnittstelle gegeniiber den Anwenderapplikationen, die nun ohne spezielle 
Anbindung an die Basisbibliothek 1 8 auskommen. 

Figur 4 zeigt eine weiterentwickelte Ausgestaltung einer Kommunikationsarchitektur im 
Detail. Applikationen A und B greifen gegebenenfalls unter Zwischenschaltung einer 
Programmierumgebung 26 auf die Systembibliothek 14 zu, der der Betriebssystemkem 10 
nachgeschaltet ist. Direkt nach Eintritt in das Betriebssystem 1 0 wird in einer Netzauswahl- 
einheit 13 die Auswahl zwischen dem Standardnetzwerk LAN und dem Hochleistungs- 
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netzwerk SAN getroffen. Bei Auswahl des Standardnetzwerkes LAN werden die Kommuni- 
kationsprotokolle in der Protokolleinheit 15 abgearbeitet, der der Geratetreiber 11 fur die 
LAN-Netzwerk-Hardware 1 6 nachgeschaltet ist. Bei Auswahl des Hochleistungsnetzwerkes 
SAN kann uber einen Kommunikationspfad 19 direkt auf die SAN-Netzwerk-Hardware 17 
zugegriffen werden. Auch hierbei sind in dem Kommunikationspfad 19 eine Protokollschicht 
21 und ein Geratetreiber 12 enthalten, der jedoch nur Verwaltungsaufgaben wahmimmt und 
nicht in die eigentliche Kommunikation eingebunden ist. 

Zusatzlich zu dem Kommunikationspfad 1 9, der die Systembibliothek 1 4 nach Netzauswahl 
unmittelbar nach Eintritt in den Betriebssystemkem 10 mit der SAN-Netzwerk-Hardware 17 
verbindet, ist auflerhalb des Betriebssystemkems eine Basisbibliothek 18 vorgesehen, auf die 
eine Applikation C unter Zwischenschaltung einer geeigneten Programmierumgebung 25 
zugreift und die tiber den auflerhalb des Betriebssystemkems 10 liegenden Kommuni- 
kationspfad 19' direkt auf die SAN-Netzwerk-Hardware 17 zugreift. Auf diese Weise sind 
sogenannte unprivilegierte Kommunikationsendpunkte zur Verftigung gestellt, die den 
Zugriff auf die SAN- Netzwerk-Hardware 17 unter Umgehung des Betriebssystems erlauben, 
aber im Gegensatz zur reinen User-Level-Kommunikation alien Schutzmechanismen des 
Betriebssystems unterliegen. Dabei ergibt sich eine sehr effiziente Ansteuerung der SAN- 
Netzwerk-Hardware 17, ohne jedoch die Schutzmechanismen des Betriebssystems zu 
umgehen. Kommunikationsendpunkte sind in sich abgeschlossene und vom Betriebssystem 
verwaltete und geschutzte Einheiten, die jeweils exklusiv einer Applikation zugeordnet 
werden, so dafi unterschiedliche Applikationen unterschiedliche Kommunikationsendpunkte 
verwenden und beispielsweise Applikation A nicht in der Lage ist, auf einen Endpunkl einer 
Applikation B zuzugreifen, obwohl beide Kommunikationsendpunkte uber dieselbe 
Hardware abgewickelt werden. 

Auch bei der in Figur 4 dargestellten Kommunikationsarchitektur sollten die oben im 
Zusammenhang mit Fig. 2 erlauterten Voraussetzungen an das Hochleistungsnetzwerk SAN 
und die schlanken Kommunikationsprotokolle verwirklicht sein. Dariiber hinaus werden auch 
in diesem Fall standardisierte Programmierschnittstellen und standardisierte oder weit 
verbreitete Programmierumgebungen vorgesehen. 



Aus Figur 5 ist die Verlagerung von Funktionalitat und Zugangspunkten im Vergleich 
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zwischen einer herkemmlichen Kommunikationsarchitektur, wie sie im Zusammenhang mit 
Figur I beschrieben wurde, und der neuen Kommunikationsarchitektur gemafl Figur 4 
dargestellt, wobei auch hier zwischen den beiden Darstellungen verlaufende Pfeile die 
einzelnen Verlagerungen symbolisieren. Die durch die Pfeile (la) und (lb) angedeutete 
Verlagerung des Zugangs zu dem SAN-Netzwerk aus den unteren Schichten des 
Betriebssystems in die innerhalb des Betriebssystemskerns liegende Protokollschicht 21 des 
Kommunikationspfades 19 und/oder direkt in den AdreBraum einer Applikation bzw. in die 
Basisbibliothek 18 als Teil der Applikation befreit das System von samtlichen 
Beschrankungen, die iiblicherweise innerhalb des Betriebssystems vorhanden sind. Dabei 
wird die Fahigkeit des Speicherverwaltungsbausteins ausgenutzt, aus physikaltschen 
Speicherbereichen nach Belieben logische AdreBraume zu konstruieren. In Kombination mit 
zusatzlicher Funktionalitat innerhalb des Netzwerkadapters ergeben sich daraus 
unprivilegierte Kommunikationsendpunkte. 

Ein GroBteil der in ublichen Protokollen erbrachten Funktionalitat wird gemaB Pfeil (2) direkt 
in die SAN-Netzwerkhardware sowie in die Protokollschicht 21 des Kommunikationspfades 
19 verlagert. Das in Zusammenhang mit Figur 2 zur Verlagerung der Protokollfunktionalitat 
Gesagte gilt hier entsprechend. 

GemaB Pfeil (3) wird die Auswahl des Netzwerkes, die bei herkdmmlicher 
Kommunikationsarchitektur zwischen der Protokollabarbeitung und dem Geratetreiber 
erfolgt, vor die eigentliche Protokollabarbeitung und im dargestellten Beispiel unmittelbar 
hinter den Eintritt in den Betriebssystemkerns 10 verlagert, so daB Kommunikations- 
operationen frtlhzeitig auf den schnelleren Kommunikationspfad 19 umgeleitet werden 
konnen. Auch hier findet diese Umleitung jedoch nur start, wenn die gewunschte 
Kommunikationsverbindung iiber den Kommunikationspfad 19 abgewickelt werden kann. 1st 
dies nicht der Fall, so wird auf die herkSmmliche Betriebssystemkommunikation 
zuruckgegriffen. Die Verlagerung der Funktionalitat aus dem Betriebssystem in die SAN- 
Netzwerk-Hardware gemaB Pfeil (4) realisiert die Multi-ProzeB-Fahigkeit der offierten 
Kommunikationsschnittstelle in Form der unabhangigen Kommunikationsendpunkte. Das 
dazu notwendige Verfahren zum Schutz von Speicherbereichen ist an sich bekannt und wird 
von der Hardwareseite vom Speicherverwaltungsbaustein des Rechners geleistet. 
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Wenn Applikationen A und B die regulare Kommunlkationsschnittsteile des Betriebssystems, 
d.h. die Systembibliothek veiwenden, dann ist der Einsatz der Hochleistungskommunikation 
aufgrund der Plazierung der Netzwerkauswahl fur diese Applikationen vollkommen 
transparent. Wenn jedoch gangige Parallelrechner-Prograrnmierungsumgebungen (PVM oder 
MPI) eingesetzt werden, sind weitere Optimierungen innerhalb des Kommunikationspfades 
mSglich. Diese werden unterstfltzt, indem aquivalente bzw. optimierte Programmier- 
umgebungen angeboten und damit die Applikationsschnittstelle auf diese Programmier- 
umgebungen verlagert werden, wie es durch den Pfeil (5) in Figur 5 angedeutet ist. 

Bei der Kommunikationsarchitektur gemafl Figur 4 findet die Netzwerkauswahl direkt nach 
dem Eintritt in das Betriebssystem start. Dazu sind iiblicherweise Modifikationen des 
Betriebssystemkems notwendig. Falls das Betriebssystem es nicht zulaflt, an dieser Stelle 
Modifikationen vorzunehmen, kann eine alternative Kommunikationsarchitektur verwendet 
werden, wie sie in Figur 6 dargestellt ist. Diese Architektur unterscheidet sich von der 
Architektur gemaB Figur 4 im wesentlichen dadurch, daB die Netzwerkauswahl 13 aus dem 
Betriebssystemkem in eine vorgeschaltete PS - System-Bibliothek 22 verlagert. Diese PS- 
Systembibliothek 22 vereint im wesentlichen die Funktionalitat der herkommlichen Systembi- 
bliothek und der Basisbibliothek und offeriert nach auBen hin dem Benutzer dieselbe 
Schnittstelle wie die Systembibliothek. Verwendet eine Applikation die PS-Systembibliothek 
22 anstelle der regularen Systembibliothek 14, die weiterhin vorhanden ist, dann werden alle 
internen Kommunikationsverbindungen - soweit wie moglich - iiber das SAN- 
Hochleistungsnetzwerk abgewickelt. 

Zu den anhand der Figur 5 bereits erlauterten Verlagerungen von Funktionalitat und 
Zugangspunkten ergeben sich folgende Anderungen. Die Auswahl des Netzwerks (Pfeil (3)) 
wird nunmehr in die PS-Systembibliothek 22 verlagert, die dabei alle Funktionen der 
eigentlichen Systembibliothek zur Verfugung stellt. Die Verlagerung der Netzwerkauswahl in 
die PS-Systembibliothek ermbglicht es, Kommunikationsverbindungen friihzeitig, d.h. vor 
Eintritt in den Betriebssystemkem und vor allem vor Abarbeitung der Standardprotokolle auf 
den schnelleren Kommunikationspfad 19 des SAN-Hochleistungsnetzwerkes umzuleiten. 
Auch hierbei fmdet diese Umleitung jedoch nur start, wenn die gewunschte Kommunikations- 
verbindung auch iiber diesen Kommunikationspfad 19 abgewickelt werden kann. Anderen- 
falls wird auf die ubliche Betriebssystemkommunikation zuruckgegriffen. 
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Wie bereits im Zusammenhang nut Figur S erlautert, wird die Programmierschnittstelle einer 
Applikation von der Systembibliothek zur Basisbibliothek verlagert (Pfeil 5b) und es werden 
Squivalente Programmierumgebungen zur Verfugung gestellt (Pfeil (5a)), die ihrerseits dann 
direkt auf die Basisbibliothek zurtlckgreifen. 



WO 01/65799 



15 



PC17EP01/02257 



Anspriiche 

1. Verfahren zur Steuerung der Kommunikation von Einzelrechnem in einem 
Rechnerverbund, wobei die Einzelrechner iiber ein Standardnetzwerk LAN und ein 
Hochleistungsnetzwerk SAN miteinander verbunden sind und wobei jeder 
Einzelrechner in einem Betriebssystemkem (10) eine mit dem Standardnetzwerk LAN 
verbundenen ProtokoUeinheit (15) zur Abarbeitung von Kommunikationsprotokollen 
und eine dem Betriebssystemkem (10) vorgeschaltete Bibliothek (14; 14,18; 14,18,22) 
aufweist, auf der an einer Kommunikationsschnittstelle (23,24) Applikationen (A,B) 
aufsetzen, wobei in einer Netzauswahleinheit (13) die Auswahl zwischen dem 
Standardnetzwerk LAN und dem Hochleistungsnetzwerk SAN erfolgt, dadurch 
gekennzeichnet, daB die Netzauswahl nach der Kommunikationsschnittstelle (23,24) 
der Bibliothek und vor oder unmittelbar nach dem Eintritt in den Betriebssystemkem 
(10) erfolgt. 

2. Verfahren nach Anspruch I, dadurch gekennzeichnet, daB die Netzauswahl vor Eintritt 
in den Betriebssystemkem (10) erfolgt und die Bibliothek fiber einen 
Kommunikationspfad (19) mit dem Hochleistungsnetzwerk SAN verbunden ist, der 
den Betriebssystemkem (10) umgeht. 

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB die Netzauswahl nach 
Eintritt in den Betriebssystemkem (10) erfolgt und die Bibliothek fiber einen 
Kommunikationspfad (19) mit dem Hochleistungsnetzwerk SAN verbunden ist und 
daB ein weiterer Kommunikationspfad (19') vorgesehen ist, der eine weitere Bibliothek 
direkt mit dem Hochleistungsnetzwerk SAN verbindet. 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daB der weitere 
Kommunikationspfad (19') aufierhalbdes Betriebssystemkems (10) verlauft. 

5. Verfahren nach einem der Anspriiche 1 bis 4, dadurch gekennzeichnet, daB die 
Netzauswahl in Abhangigkeit von durch die Applikationen vorgegebenen Zieladressen 
erfolgt. 
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6. Verfahren nach einem der Anspruchc 1 bis 5, dadurch gekennzeichnet, daB auf das 
Standardnetzwerk LAN zugegriffen wird, wenn eine Kommunikationsverbindung iiber 
den Kommunikationspfad (19) oderden weiteren Kommunikationspfad (19') mit dem 
Hochleistungsnetzwerk SAN nicht moglich ist. 

7. Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, daB 
Protokollaufgaben zur Ausbildung schlanker Kommunikationsprotokolle in die 
Netzwerkhardware (17) verlagert sind. 
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